1
จากความถี่ไปสู่บริบท: การพัฒนาของภาษาธรรมชาติ (NLP)
AI030Lesson 3
00:00

การพัฒนาของภาษาธรรมชาติ (NLP) แสดงถึงการเปลี่ยนแปลงเชิงหลักที่มีความสำคัญ ซึ่งเปลี่ยนจากการมองภาษาเป็นสัญลักษณ์ที่แยกจากกันและไม่เกี่ยวข้อง มาเป็นการแทนที่โดยเวกเตอร์ในพื้นที่หลายมิติอย่างต่อเนื่อง เราได้ก้าวไกลจาก การแทนที่ตามลักษณะเฉพาะ ไปสู่แผนที่ทางความหมายที่ลึกซึ้ง

TF-IDF (แบบกระจาย)มิติ = ขนาดพจนานุกรมWord2Vec (แบบกระจาย)พระราชาราชินีแอปเปิ้ลมิติ = คุณสมบัติแฝง

การเปลี่ยนแปลงในการแทนที่

  • ยุคสถิติ (แบบกระจาย): ช่วงเริ่มต้นของภาษาธรรมชาติ (NLP) อาศัยอัลกอริธึม TF-IDF แม้ว่าจะมีประสิทธิภาพในการค้นหา แต่ก็มีปัญหาเรื่อง 'ภัยคุกคามของการกระจาย' ในระบบ TF-IDF คำว่า 'แพทย์' และ 'หมอ' จะเป็นเวกเตอร์ที่ตั้งฉากกันทางคณิตศาสตร์ จึงไม่มีความสัมพันธ์ใด ๆ กันเลย
  • ปฏิวัติแบบกระจาย (โมเดลภาษาที่ใช้เครือข่ายประสาทเทียม และ Word2Vec): โมเดลภาษาที่ใช้เครือข่ายประสาทเทียมได้นำเสนอเวกเตอร์แบบหนาแน่น คำว่า Word2Vec (Skip-gram/CBOW) เรียนรู้ว่าคำที่ปรากฏในบริบทใกล้เคียงกันควรจะอยู่ใกล้กันในพื้นที่
  • สถิติทั่วทั้งเอกสาร (GloVe): ตัวแปรทั่วทั้งเอกสาร (GloVe) ช่วยลดช่องว่างโดยการวิเคราะห์การปรากฏร่วมกันในทั้งเอกสารทั้งหมด เพื่อให้มั่นใจว่าระยะห่างสะท้อนความคล้ายคลึงทางความหมายในเชิงคณิตศาสตร์
ความเข้าใจเชิงลึก
การเปลี่ยนจากนับจำนวนมาเป็นการคาดการณ์บริบท ทำให้โมเดลสามารถจับความละเอียดอ่อนได้ แนวคิด 'การแทนที่แบบกระจาย' หมายความว่า ความหมายของคำหนึ่งคำถูกกระจายไปยังมิติเวกเตอร์หลายร้อยมิติ แต่ละมิติอาจแทนคุณสมบัติทางความหมายแฝง เช่น เพศ สถานะราชวงศ์ หรือบริบททางการแพทย์